查看原文
其他

学术书摘 | 《第二语言研究中的结构方程模型案例分析》

这个夏天,定位几本好书研读,静习之,深悟之。iResearch全新推出“学术书摘”栏目,为您呈上外语学术新著摘选,陪伴您在智慧的旅途。


本期精选《第二语言研究中的结构方程模型案例分析》一书中的部分内容,邀您共读!


新书推荐 | 《第二语言研究中的结构方程模型案例分析》 (点击链接了解本书)


作者:许宏晨

ISBN:978-7-5213-0664-4

出版社:外语教学与研究出版社

出版时间:2019年3月

定价:33.90


内容简介


《第二语言研究中的结构方程模型案例分析》是第二语言研究领域的结构方程模型使用指南。全书共八章。第一、二章分别介绍了结构方程模型和AMOS软件。第三章到第八章由简到繁系统介绍了测量模型、结构模型、测量模型多组分析和结构模型多组分析四大类结构方程模型常用统计方法。此外,各章练习内容均配有讲解视频,可以为读者带来更为直观的学习体验。


本书内容简洁、实用,最适合需要使用结构方程模型但又无法获得面对面指导的高校外语教师自学使用,也适合用作高级统计方法短期培训的教材,同时还适合外语教育类硕士研究生和低年级博士研究生阅读,可作为他们研究方法课程的参考手册。


主要内容架构


第一章    结构方程模型概述

第二章    AMOS 17.0 软件概述

第三章    简单测量模型

第四章    复杂测量模型

第五章    无中介变量的结构模型

第六章    有中介变量的结构模型

第七章    测量模型多组分析

第八章    结构模型多组分析


本书的必要性和特色


结构方程模型(Structural Equation Modeling,简称SEM)是一种多元统计分析技术。它综合了因子分析、回归分析、路径分析等统计手段的优点,同时避免了它们的不足。这种统计方法可以使研究者对某一理论模型进行假设检验,通过考察该模型与实证数据之间的拟合程度来判断理论模型的优劣,进而对模型做出修正或取舍。该统计手段于20世纪70年代提出,90年代在心理学、社会学、管理学等学科中被广泛使用。二语习得领域也经常使用这种统计方法。


到目前为止,介绍结构方程模型的书籍多从心理学、管理学等领域举例,讲解虽然详尽,但是对我国语言教育及二语习得领域的研究人员来说,总有一种不解渴、不接地气的感觉。我个人认为,这是由于应用语言学界的研究者对于书中的例子不够熟悉,造成了学习困难。不仅如此,现有书籍多数比较厚重,让人看了外观就有畏难情绪,不想继续翻阅了。此外,现有书籍鲜有对结构方程模型检验结果在学术论文汇报中如何撰写的介绍;也未能提供相应练习巩固所学知识;使用的软件也多为需要编程的LISREL或EQS。为此,我认为有必要编写一本适合第二语言研究工作者的简明SEM教程,介绍检验结果如何在论文中汇报,并通过练习运用所学知识,达到举一反三的目的;所用软件也避开编程类型,转而以窗口型的AMOS作为软件依托。


除上述总体特色外,作为一本实践性很强的工具书,与同类书籍相比,本书具有以下特点:


• 案例讲解法。

• 按照由易到难、由简到繁的原则组织各章。

• 学练结合、练中有学;视频辅助、便于理解。



结构方程模型概述


第二语言研究中的推断统计可以帮助研究者寻找研究变量之间的差异,如t检验、方差分析、卡方检验等;它也可以帮助研究者寻找变量之间的关联,如相关分析、回归分析等。但上述统计手段所能解决的问题有限——当变量较多且关系复杂时,就需要使用其他统计手段进行处理,结构方程模型就是其中之一。


基本特点


结构方程模型英文为Structural Equation Modeling,简称SEM,是一种建立、估计和检验变量间关系的多元统计分析技术;20世纪70年代由瑞典统计学家Jöreskog及Sörbom提出并逐步改进,20世纪90年代得到广泛应用。SEM是一种对理论模型进行假设检验的统计建模技术,多被应用在心理学、社会学、管理学、行为科学及语言教学等领域中。


SEM综合了因子分析(factor analysis)、回归分析(regression analysis)和路径分析(path analysis)等统计手段的特点,同时规避了它们的弊端。探索性因子分析能从纷繁复杂的题项中提取潜在变量(即因子),从而达到压缩题项数量,得出抽象概念的目的。但当因子数目确定,且每个因子下的题项数目也确定时,若想验证这些因子和题项之间关系,探索性因子分析就没那么有用了。多元回归分析可以检验多个自变量对一个因变量的解释程度。但当自变量之间存在较高共线性,且因变量不止一个时,多元回归分析就没那么有用了。路径分析能够同时检验多个变量之间的相互关系,但它直接使用观测变量进行检验,且假定各变量不含测量误差,这与科学研究的实际情况通常不符。相比之下,SEM能同时处理多个因变量(包括观测变量和潜在变量);容许自变量和因变量含有测量误差;能同时处理观测变量、潜在变量及误差项;能直接验证因子与题项之间的关系;还能直观地揭示出潜在变量之间的关系,并估计出理论模型与实际数据之间的拟合程度。


SEM使用图形表示变量间的关系(图1.1):方形表示观测变量,即原始数据中的变量;椭圆形表示潜在变量(也称概念变量),它在原始数据中并不存在,要通过若干个观测变量来测得;单箭头表示解释关系(也称回归关系);双箭头表示相关关系;带有单箭头的圆形表示误差项。



基本类型


结构方程模型有两种基本类型:测量模型(measurement model)和结构模型(structural model)。最简单的测量模型由一个潜在变量(latent variable)和它的若干个观测变量(observed variable)以及误差项(error)构成(图1.2)。图1.2中的X表示一个潜在变量,q1到q5表示测量X的五个观测变量,e1到e5表示这五个观测变量在测量X时各自存在的误差。复杂一点的测量模型通常由若干个潜在变量及其观测变量和误差项构成(图1.3)。图1.3中的X1、X2和X3分别表示三个潜在变量,q1到q5表示测量X1的五个观测变量,e1到e5表示这五个观测变量的误差项。q6到q9表示测量X2的四个观测变量,e6到e9表示这四个观测变量的误差项。q10到q12表示测量X3的三个观测变量,e10到e12表示这三个观测变量的误差项。值得注意的是,一个潜在变量至少要由三个观测变量测得。此外,复杂测量模型中的潜在变量两两之间要通过双箭头连接起来,表示彼此相关。




最简单的结构模型由一个复杂的测量模型和一个简单的测量模型构成(图1.4)。图1.4左侧是一个复杂的测量模型,由X1、X2和X3三个潜在变量构成;右侧是一个简单的测量模型,由Y这个潜在变量构成。在SEM的术语中,X1、X2和X3又被称为外生变量(exogenous variable),相当于自变量,是影响其他变量的变量;Y被称为内生变量(endogenous variable),相当于因变量,是受其他变量影响的变量。需要注意的是,外生变量到内生变量由单箭头连接,表示解释(或称回归)关系。ey表示内生变量Y的误差项。需要注意的是,在SEM中,如果一个观测变量或潜在变量被单箭头指向,那么它一定需要误差项。复杂一点的结构模型需在简单的结构模型基础上增加新的内生变量(图1.5)。Z是新增加的内生变量,本例中它由四个观测变量测得,且它不但被X1、X2和X3影响,同时还受Y的影响。此外,X1、X2和X3还通过Y间接影响Z。这时,Y被称为中介变量(mediated variable)。




以上图例仅是抽象概括,在实际使用中会有变化。研究者需要根据自己的研究问题和理论假设构建初始模型。在后续章节中,笔者会通过实例分别介绍各种模型的使用方法。


基本指标


与其他推断统计手段类似,SEM也需要完成参数估计和假设检验两项主要统计任务。但与其他统计手段不同之处在于,SEM的参数估计量更多,假设检验结果不仅仅提供显著水平,还提供拟合度(fitness)等其他指标。研究者需要综合考虑上述结果再作出最后的统计决断。 


就参数估计数量而言,SEM需要估计四类参数:潜在变量之间的相关关系或者解释关系;潜在变量与观测变量之间的解释关系;误差项与观测变量之间的关系;误差项之间的相关关系。也就是说,一个SEM中需要估计的参数 个数就是模型所有单箭头和双箭头数量的总和。以图1.2为例,这个模型中需要估计的参数共计10个,因为有10个单箭头。再以图1.4为例,这个模型中需要估计的参数共计39个,因为有36个单箭头和3个双箭头。


就参数估计方法而言,SEM主要使用四种方法来进行估计:最大似然法(maximum likelihood,简称ML)、一般最小平方法(generalized least squares,简称GLS)、未加权最小平方法(unweighted least squares,简称ULS)和渐进分布自由法(asymptotic distribution free,简称 ADF)。ADF法适用于极度偏态的大样本,但要求样本量须为理论模型自由参数的十倍。ULS法通常不需要符合某种统计分布的假定,它在数据不符合统计分布假定时也能获得稳定的统计结果。当数据违反多元正态分布假定时,GLS法的估计结果更为可靠。当数据符合多元正态分布假定时,ML法的估计结果更为可靠。但近年来研究表明,ML也可以用于轻微非正态分布的数据估计。本书只用ML法作为参数估计的方法,因为它的好处是可以不考虑样本数据的分布状态和样本量的大小。此外,它也是AMOS软件默认的参数估计方法。


就假设检验而言,SEM与其他统计方法相比有以下两点显著差异。第一,由于SEM旨在考察理论模型与数据之间的吻合程度,因此,期待p值大于0.05;这样才能够得出理论模型与数据之间无显著差异的结论,即理论模型得 到数据支持。第二,由于SEM采用卡方值作为统计量,在样本数增大时,卡方值也会变大,导致p值小于或等于0.05而迫使研究者拒绝可能已经是比较合理的理论模型。所以,除了卡方值以外,还要参考其他体现理论模型与数据吻合优劣程度的指标,常用的指标如下:


拟合优度指数(goodness-of-fit index,简称GFI)和校正拟合优度指数(adjusted goodness-of-fit index,简称 AGFI)主要表示理论模型与数据的拟合程度是否完好。这两个指标的取值范围在0到1之间;一般认为大于等于0.90时,理论模型与数据拟合良好。 


比较拟合指数(comparative fit index,简称CFI)与GFI和 AGFI检验方法不同。CFI假定理论模型是所有模型中最差的一个,因此它要考察理论模型 与数据之间的差异有多大。这个指标的取值范围也在0到1之间;一般认为大于等于0.90时,“假想中最差的”理论模型与数据的差异最大,换句话说,理论模型得到了数据的支持。 


残差均方和平方根(root mean square residual,简称RMR)和渐进残差均方和平方根(root mean square error of approximation,简称RMSEA)从残差的角度考察理论模型与数据的吻合程度。这两个指标表示理论模型无法得到数据支持的程度:即残差越大,理论模型与数据的吻合程度越差。这两个指标的取 值范围也在0到1之间;一般认为,RMR小于等于0.10、RMSEA小于等于0.08时,理论模型与数据之间的吻合程度更好。 


最后还有一组指标是卡方值与自由度之比(CMIN/DF)。之所以使用这种方法是因为卡方值容易受到样本量的影响增大,使p值达到显著水平,而迫使研究者拒绝本来可能已经十分合理的理论模型。因此,统计学家们将自由度考虑进来,通过比值的方法来检验理论模型与数据的拟合情况。一般认为,卡方值与自由度之比小于等于2时,理论模型与数据拟合良好。但也有研究者将标准放宽到5,即当卡方值与自由度之比小于等于5时,就认为理论模型与数据拟合良好,可以接受。


为便于读者查阅,笔者将上述指标汇总如下(表1.1)。需要注意的是,表1.1中提供的取值范围仅供参考,不能机械地将其标准化。在SEM统计决断中,要综合考虑以下指标,只要绝大多数指标都在参考范围之内,即认为该理论模型可以接受。但即便如此,我们也无法断定某个理论模型是唯一最佳模型,因为还有其他模型也可能得到同一批数据的支持。研究者在使用SEM作出判断之前要结合自身学科和专业知识作出合乎逻辑的取舍。



如果想了解更多本书信息,

点击文末“阅读原文”购买。



相关阅读

学术书摘 |《生态语言学:语言、生态与我们信奉和践行的故事》(一)

学术书摘 |《生态语言学:语言、生态与我们信奉和践行的故事》(二)

学术书摘 | 《跨文化能力研究》(导论 上)

学术书摘 | 《跨文化能力研究》(导论下及各章简介)


猜你喜欢

新书推荐 | 《论英汉的时空性差异》 王文斌 著

新书推荐 |《语料库与学术英语研究》 姜峰 著

新书推荐 |《语料库与话语研究》 许家金 著

新书速递 |《生态女性主义》 韦清琦、李家銮 著

新书速递 |《作者》 刁克利 著

新书推荐 |《中文小说英译研究》 王颖冲 著

新书推荐 |《跨文化能力研究》 戴晓东 著



点“阅读原文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存